'data.frame': 740 obs. of 21 variables:
$ ID : int 11 36 3 7 11 3 10 20 14 1 ...
$ Reason.for.absence : int 26 0 23 7 23 23 22 23 19 22 ...
$ Month.of.absence : int 7 7 7 7 7 7 7 7 7 7 ...
$ Day.of.the.week : int 3 3 4 5 5 6 6 6 2 2 ...
$ Seasons : int 1 1 1 1 1 1 1 1 1 1 ...
$ Transportation.expense : int 289 118 179 279 289 179 361 260 155 235 ...
$ Distance.from.Residence.to.Work: int 36 13 51 5 36 51 52 50 12 11 ...
$ Service.time : int 13 18 18 14 13 18 3 11 14 14 ...
$ Age : int 33 50 38 39 33 38 28 36 34 37 ...
$ Work.load.Average.day : num 240 240 240 240 240 ...
$ Hit.target : int 97 97 97 97 97 97 97 97 97 97 ...
$ Disciplinary.failure : int 0 1 0 0 0 0 0 0 0 0 ...
$ Education : int 1 1 1 1 1 1 1 1 1 3 ...
$ Son : int 2 1 0 2 2 0 1 4 2 1 ...
$ Social.drinker : int 1 1 1 1 1 1 1 1 1 0 ...
$ Social.smoker : int 0 0 0 1 0 0 0 0 0 0 ...
$ Pet : int 1 0 0 0 1 0 4 0 0 1 ...
$ Weight : int 90 98 89 68 90 89 80 65 95 88 ...
$ Height : int 172 178 170 168 172 170 172 168 196 172 ...
$ Body.mass.index : int 30 31 31 24 30 31 27 23 25 29 ...
$ Absenteeism.time.in.hours : int 4 0 2 4 2 2 8 4 40 8 ...
|| || || ||
Algunas de las variables realmente son categoricas, por ejemplo. Month.of.absence = none, jan, feb..., day of the week = monday, tuesday.... por lo que procederemos a mutarlas en factores, es decir variables categoricas con niveles.
'data.frame': 740 obs. of 22 variables:
$ ID : int 11 36 3 7 11 3 10 20 14 1 ...
$ Reason.for.absence : Factor w/ 28 levels "infectious,parasitic diseases",..: 26 1 23 8 23 23 22 23 20 22 ...
$ Month.of.absence : Factor w/ 13 levels "None","Jan","Feb",..: 8 8 8 8 8 8 8 8 8 8 ...
$ Day.of.the.week : Factor w/ 5 levels "Monday","Tuesday",..: 2 2 3 4 4 5 5 5 1 1 ...
$ Seasons : Factor w/ 4 levels "summer","autumn",..: 1 1 1 1 1 1 1 1 1 1 ...
$ Transportation.expense : int 289 118 179 279 289 179 361 260 155 235 ...
$ Distance.from.Residence.to.Work: int 36 13 51 5 36 51 52 50 12 11 ...
$ Service.time : int 13 18 18 14 13 18 3 11 14 14 ...
$ Age : int 33 50 38 39 33 38 28 36 34 37 ...
$ Work.load.Average.day : num 240 240 240 240 240 ...
$ Hit.target : int 97 97 97 97 97 97 97 97 97 97 ...
$ Disciplinary.failure : Factor w/ 2 levels "0","1": 1 2 1 1 1 1 1 1 1 1 ...
$ Education : Factor w/ 4 levels "highschool","graduate",..: 1 1 1 1 1 1 1 1 1 3 ...
$ Son : Factor w/ 5 levels "0","1","2","3",..: 3 2 1 3 3 1 2 5 3 2 ...
$ Social.drinker : Factor w/ 2 levels "No","Yes": 2 2 2 2 2 2 2 2 2 1 ...
$ Social.smoker : Factor w/ 2 levels "No","Yes": 1 1 1 2 1 1 1 1 1 1 ...
$ Pet : Factor w/ 6 levels "0","1","2","4",..: 2 1 1 1 2 1 4 1 1 2 ...
$ Weight : int 90 98 89 68 90 89 80 65 95 88 ...
$ Height : int 172 178 170 168 172 170 172 168 196 172 ...
$ Body.mass.index : int 30 31 31 24 30 31 27 23 25 29 ...
$ Absenteeism.time.in.hours : int 4 0 2 4 2 2 8 4 40 8 ...
$ Diciplinary.failture : Factor w/ 2 levels "No","Yes": 1 2 1 1 1 1 1 1 1 1 ...
|| || || ||
sum(is.na(df)) sabremos si existen nulos
[1] 0
De esta forma sabemos que no debemos de tratar los datos para rellenar
celdas vacias.
De este analisis podemos identificar correlaciones considerables, por ejemplo
+body mass index vs weight 0.90
+service time vs body mass index 0.4997
+service time vs age 0.671
-Disciplinary failure vs reasons for absence -0.5450
Las cuatro primeras variables de enfermedades de ausencia cubren el 50% de las razones de ausencia. medical consultation, dental consultation, physiotherapy, isease of genitourinary system.
En cuanto a los meses con mayor ausencia, no parece haber realmente un mes mĆ”s notorio o explicativo. Al igual que los dĆas de la semana y las temporadas.
Con respecto a la educación, existe mÔs del 80% de ausentismo en aquellas personas que tienen una educación de bachillerato.
Tener mƔs hijos tampoco parece estar relacionado positivamente con las faltas, ya que los que no tienen hijos son los que mƔs faltan y las faltas se reducen a medida que se tienen mƔs hijos. No se sabe si este fenomeno se da debido a que existen menos peronas con 4, 3 y 2 hijos.
Por otro lado, los fumadores y bebedores.Existen 400 que no fuman y que si beben, y existen 286 que no fuman y no beben con faltas. 686 gentes que no fuman. Entonces se podrĆa decir que no hay relación significativa entre los vicios con las faltas
No se ve relación entre gente con mascotas y faltas.
Entonces, ¿existe relación entre los bebedores y las edades? En el siguiente grÔfio se presenta este fenomeno, en el que se muestra a la gente de -33 años que si beben con 104 horas -28 años que no beben con 112 horas -34 años que si beben con 120 horas -50 años que si beben con 120 horas -58 años que no beben con 120 horas
Parece que tiene que ver mƔs con la edad que con el beber.
PCA eigenvalue variance.percent cumulative.variance.percent
Dim.1 3.339799031 17.57788964 17.57789
Dim.2 2.257412233 11.88111701 29.45901
Dim.3 1.939456890 10.20766784 39.66667
Dim.4 1.507988048 7.93677920 47.60345
Dim.5 1.387733831 7.30386227 54.90732
Dim.6 1.233863730 6.49401963 61.40134
Dim.7 1.080867970 5.68877879 67.09011
Dim.8 0.999907259 5.26266979 72.35278
Dim.9 0.960207750 5.05372500 77.40651
Dim.10 0.840156460 4.42187610 81.82839
Dim.11 0.788760159 4.15136926 85.97975
Dim.12 0.649089642 3.41626127 89.39602
Dim.13 0.480783109 2.53043742 91.92645
Dim.14 0.429404584 2.26002413 94.18648
Dim.15 0.394885141 2.07834285 96.26482
Dim.16 0.304715289 1.60376468 97.86858
Dim.17 0.235723789 1.24065152 99.10924
Dim.18 0.166573924 0.87670487 99.98594
Dim.19 0.002671161 0.01405874 100.00000
$eig eigenvalue percentage of variance cumulative percentage of variance
comp 1 3.339799031 17.57788964 17.57789
comp 2 2.257412233 11.88111701 29.45901
comp 3 1.939456890 10.20766784 39.66667
comp 4 1.507988048 7.93677920 47.60345
comp 5 1.387733831 7.30386227 54.90732
comp 6 1.233863730 6.49401963 61.40134
comp 7 1.080867970 5.68877879 67.09011
comp 8 0.999907259 5.26266979 72.35278
comp 9 0.960207750 5.05372500 77.40651
comp 10 0.840156460 4.42187610 81.82839
comp 11 0.788760159 4.15136926 85.97975
comp 12 0.649089642 3.41626127 89.39602
comp 13 0.480783109 2.53043742 91.92645
comp 14 0.429404584 2.26002413 94.18648
comp 15 0.394885141 2.07834285 96.26482
comp 16 0.304715289 1.60376468 97.86858
comp 17 0.235723789 1.24065152 99.10924
comp 18 0.166573924 0.87670487 99.98594
comp 19 0.002671161 0.01405874 100.00000
Como se puede ver en los datos, tenemos que con al menos 10 variables se puede explicar la variabilidad del porque la ausencia en el trabajo. En el grafico de la columna de la derecha llamada āEigenvaloresā se aprecia visualmente estos datos.
NOTA: En sesión el doctor especifico que no se deben de usar variables categoricas, sin embargo al dejar estas de lado se esta perdiendo gran información. La función<PCA()> permite utilizar
variables categoricas suplementarias.
$eig Dim.1 Dim.2 Dim.3
Reason.for.absence 0.05152773 -0.16263166 -0.70041915
Month.of.absence 0.02071214 0.43587242 0.38791359
Day.of.the.week -0.07947522 0.08565262 -0.18514772
Seasons -0.03781712 0.22085774 0.42431418
Transportation.expense -0.33337723 0.69155991 -0.07199080
Distance.from.Residence.to.Work 0.10709133 0.55762624 -0.55868013
Service.time 0.78602027 -0.12784921 -0.02594746
Age 0.69201251 -0.07304888 0.18969827
Work.load.Average.day -0.05858029 -0.01451683 0.19751512
Hit.target -0.10111418 -0.36615062 -0.33025422
Disciplinary.failure 0.07010165 0.28786920 0.63002647
Education -0.46963529 -0.45283681 0.14146459
Son -0.09607051 0.48120946 0.01195857
Social.drinker 0.54820268 0.43469542 -0.23385032
Social.smoker -0.14801766 0.01642031 0.18606529
Pet -0.36044013 0.44097241 -0.09372817
Weight 0.83274025 -0.04035669 0.08923245
Height 0.07050399 -0.35021789 0.24213123
Body.mass.index 0.84291989 0.11064881 -0.01600076
Dim.4 Dim.5
Reason.for.absence -0.283323326 0.16020055
Month.of.absence -0.563181778 0.24489252
Day.of.the.week 0.103466541 0.43804049
Seasons -0.313341227 0.23018769
Transportation.expense 0.135879189 -0.17329670
Distance.from.Residence.to.Work 0.005388349 0.06518135
Service.time 0.195911589 0.37681068
Age 0.268694735 0.32180173
Work.load.Average.day 0.217708213 -0.11575095
Hit.target 0.405226608 -0.15638652
Disciplinary.failure 0.240864235 -0.05652572
Education -0.114141716 0.11898727
Son 0.440024792 0.08758783
Social.drinker 0.142533676 -0.15483659
Social.smoker 0.566057857 0.28154111
Pet 0.016589464 -0.37412807
Weight -0.120133651 -0.39825746
Height 0.109710229 -0.53133001
Body.mass.index -0.169798684 -0.17434590
En la columna derecha tenemos una matriz grafica y un grÔfico de barras llamado cos2 Para el caso de la matriz que nos dejan identificar en dodne se encuentra el valor con mayores pesos (negativos y positivos). Para el caso de la grÔfica, muestra la importancia de un componente principal para una observación dada (vector de variables originales).
La correlación entre una variable y un componente principal (PC) se utiliza como las coordenadas de la variable en el PC. La representación de las variables difiere del grÔfico de las observaciones: las observaciones estÔn representadas por sus proyecciones, pero las variables estÔn representadas por sus correlaciones (Abdi y Williams 2010).
El grÔfico también se conoce como grÔfico de correlación de variables. Muestra las relaciones entre todas las variables. Se puede interpretar de la siguiente manera:
Las contribuciones de las variables para explicar la variabilidad en un componente principal dado se expresan en porcentaje.